视力转换器被广泛用于各种视觉任务。同时,从MLP-Mixer开始尝试使用基于MLP的体系结构实现类似性能的一系列作品。有趣的是,到目前为止,没有人报告使用它们执行NLP任务,此外,直到现在,这些基于MLP的架构却没有声称可以实现视觉任务最新的架构。在本文中,我们分析了基于MLP的体系结构同时在多个不同输入之间建模依赖性中的表达能力,并显示了注意力与基于MLP的机制之间的指数差距。我们的结果表明,MLP无法与NLP问题中的基于注意力的机制竞争的理论解释,他们还表明,视觉任务的性能差距可能是由于MLP相对弱点在多个不同位置之间的建模依赖性中的相对弱点所致,并且结合在一起。对MLP体系结构的智能输入排列可能不足以缩小性能差距。
translated by 谷歌翻译
高参数调整是改善神经网络性能的常见技术。大多数用于超参数搜索的技术都涉及一个迭代过程,在该过程中,在每次迭代中都会重新训练模型。但是,每次其他搜索迭代的预期准确性提高,仍然未知。计算预期的改进可以帮助创建超参数调整规则,并允许对项目的计算预算进行更明智的分配。在本文中,我们从额外的超参数搜索迭代中提高了预期准确性提高的经验估计。我们的结果适用于基于随机搜索\ cite {bergstra2012random}的任何超参数调整方法,并从固定分布中采样超参数。我们以$ o \ left的错误(\ sqrt {\ frac {\ log k} {k}}} \ right)$ o \ left(\ sqrt {\ frac {\ frac {\ frac {\ right)$ w.h.p.其中$ k $是当前的迭代次数。据我们所知,这是从额外的超参数搜索迭代中获得预期增益的第一键。最后,我们证明了预期准确性的最佳估计值仍将具有$ \ frac {1} {k} $的错误。
translated by 谷歌翻译
已知深层神经网络容易受到对抗扰动的影响 - 较小的扰动会改变网络的输出并存在于严格的规范限制下。虽然通常将这种扰动讨论为针对特定输入量身定制,但可以构建通用扰动以更改模型在一组输入上的输出。普遍的扰动呈现出更现实的对抗攻击案例,因为不需要对模型的确切输入的认识。此外,通用攻击设置将泛化的主题提高到看不见的数据,在给定一组输入的情况下,通用扰动旨在改变模型在样本外数据上的输出。在这项工作中,我们研究了基于视觉探测器的自主导航系统的物理被动补丁对抗攻击。视觉轨道测定系统旨在推断两个相应的观点之间的相对摄像机运动,并经常被基于视觉的自主导航系统使用以估计其状态。对于此类导航系统,贴片对抗扰动构成了严重的安全问题,因为它可以用来误导系统到某些碰撞过程中。据我们所知,我们首次表明,通过在场景中部署补丁的对抗攻击,可以显着增加视觉探针模型的错误差。我们提供有关合成闭环无人机导航数据的评估,并证明实际数据中存在可比漏洞。在https://github.com/patchadversarialattacks/patchardversarialateacks上提供了提出方法和报告实验的参考实现。
translated by 谷歌翻译
分位数回归(QR)是一个强大的工具,用于估计目标变量$ \ mathrm {y} $的一个或多个条件分位数给定的解释功能$ \ boldsymbol {\ mathrm {x}}} $。 QR的一个限制是,由于其目标函数的提出,它仅针对标量目标变量定义,并且由于分位数的概念对多元分布没有标准定义。最近,由于通过最佳传输将分位数概念对多变量分布的有意义的概括,提出了矢量分位数回归(VQR)作为矢量值目标变量的QR扩展。尽管它优雅,但VQR可以说是由于几个限制而在实践中不适用:(i)假设目标$ \ boldsymbol {\ mathrm {y}} $给定功能$ \ boldsymbol {\ mathrm {\ mathrm {\ mathrm {\ mathrm { {x}} $; (ii)即使在目标维度,回归分位数或特征数量的数量方面,它的确切配方也是棘手的,即使对于适度的问题,并且其放松的双重配方可能违反了估计的分位数的单调性; (iii)当前不存在VQR的快速或可扩展求解器。在这项工作中,我们完全解决了这些局限性,即:(i)将VQR扩展到非线性情况,显示出对线性VQR的实质性改进; (ii)我们提出{矢量单调重排},该方法可确保VQR估计的分位数函数是单调函数; (iii)我们为线性和非线性VQR提供快速的GPU加速求解器,这些求解器保持固定的内存足迹,并证明它们扩展到数百万个样品和数千个分位数; (iv)我们发布了求解器的优化Python软件包,以广泛使用VQR在现实世界应用中的使用。
translated by 谷歌翻译
建立机器人假体的核心挑战是创建基于传感器的系统,能够从下肢读取生理信号,并指示机器人手执行各种任务。现有系统通常通过采用肌电图(EMG)或超声(US)技术来分析肌肉状态,进行诸如指向或抓握之类的离散手势。虽然过去通过检测突出的手势来估算手势手势,但我们对检测或推理感兴趣,在随着时间的流逝而发展的精细运动的背景下进行。示例包括执行精细且灵巧的任务(例如键盘打字或钢琴弹奏)时发生的动作。我们将这项任务视为朝着臂截肢者中机器人假体提高采用率的重要一步,因为它有可能显着提高执行日常任务的功能。为此,我们提出了一个端到端的机器人系统,可以成功推断出精细的手指运动。这是通过将手作为机器人操纵器建模并将其用作中间表示来实现的,以从美国图像序列中编码肌肉的动力学。我们通过收集一组主题的数据来评估我们的方法,并演示如何使用它来重播播放或键入文字。据我们所知,这是第一个研究端到端系统中这些下游任务的第一项研究。
translated by 谷歌翻译
量子光学器件中的自发参数下转换是实现具有空间光模式的高维QUITIES的宝贵资源。主要开放挑战之一是如何在SPDC过程中直接生成所需的Qudit状态。通过高级计算学习方法可以解决这个问题;然而,由于通过考虑所有互动效应的完全可分辨率算法对SPDC过程建模的困难,进展有限。在这里,我们克服了这些限制并引入了物理受约束和可微分的模型,验证了针对形状泵浦梁和结构晶体的实验结果,能够在过程中学习每个交互参数。我们避免了我们物理模型随机性质引起的任何限制,并整合了在SPDC Hamiltonian下的演变的动态方程。我们解决了设计非线性量子光学系统的逆问题,该系统实现了降低的光子对的所需量子状态。使用不同空间模式之间的二阶相关性或通过指定所需的密度矩阵来定义所需状态。通过学习非线性卷全息图以及不同的泵形状,我们成功地展示了如何生成最大纠缠的状态。此外,我们通过主动改变泵浦光束的轮廓来模拟产生的量子状态的全光相干控制。我们的工作对于高维量子密钥分布和量子信息处理协议等新颖设计有用。此外,我们的方法可以容易地应用于控制SPDC过程中的其他光度的其他光度,例如光谱和时间特性,甚至可以用于具有类似相互作用Hamiltonian的冷凝物系统。
translated by 谷歌翻译
低估和控制生成模型的潜像是一个复杂的任务。在本文中,我们提出了一种新的学习方法,用于在预先训练的GaN的潜在空间中控制任何所需属性,以便相应地编辑合成和现实世界数据样本。我们执行SIM2REAL学习,依靠最小的样品来实现无限量的连续精确编辑。我们介绍了一种基于AutoEncoder的模型,该模型学习以编码图像之间的变化的语义作为编辑稍后编辑新样本的基础,实现了精确的期望结果 - 图1所示的示例。虽然先前的编辑方法依赖于潜伏的已知结构空格(例如,样式中的某些语义的线性),我们的方法本身不需要任何结构约束。我们在面部图像的域中演示了我们的方法:编辑不同的表达式,姿势和照明属性,实现最先进的结果。
translated by 谷歌翻译
使用致动万向节的机械图像稳定使得能够捕获长曝光镜头而不会因相机运动而遭受模糊。然而,这些装置通常是物理上繁琐和昂贵的,限制了他们广泛的使用。在这项工作中,我们建议通过输入快速未稳定的相机的输入来数字化地模拟机械稳定的系统。在短曝光的长曝光和低SNR处开发运动模糊之间的折衷,我们通过聚集由未知运动相关的嘈杂短曝光框架来培训估计尖锐的高SNR图像的CNN。我们进一步建议以端到端的方式学习突发的曝光时间,从而平衡噪声和模糊穿过框架。我们展示了这种方法,通过传统的去掩盖单个图像或在合成和实际数据上去除固定曝光突发的传统方法的优势。
translated by 谷歌翻译
We derive a set of causal deep neural networks whose architectures are a consequence of tensor (multilinear) factor analysis. Forward causal questions are addressed with a neural network architecture composed of causal capsules and a tensor transformer. The former estimate a set of latent variables that represent the causal factors, and the latter governs their interaction. Causal capsules and tensor transformers may be implemented using shallow autoencoders, but for a scalable architecture we employ block algebra and derive a deep neural network composed of a hierarchy of autoencoders. An interleaved kernel hierarchy preprocesses the data resulting in a hierarchy of kernel tensor factor models. Inverse causal questions are addressed with a neural network that implements multilinear projection and estimates the causes of effects. As an alternative to aggressive bottleneck dimension reduction or regularized regression that may camouflage an inherently underdetermined inverse problem, we prescribe modeling different aspects of the mechanism of data formation with piecewise tensor models whose multilinear projections are well-defined and produce multiple candidate solutions. Our forward and inverse neural network architectures are suitable for asynchronous parallel computation.
translated by 谷歌翻译
Diffusion models have achieved justifiable popularity by attaining state-of-the-art performance in generating realistic objects from seemingly arbitrarily complex data distributions, including when conditioning generation on labels. Unfortunately, however, their iterative nature renders them very computationally inefficient during the sampling process. For the multi-class conditional generation problem, we propose a novel, structurally unique framework of diffusion models which are hierarchically branched according to the inherent relationships between classes. In this work, we demonstrate that branched diffusion models offer major improvements in efficiently generating samples from multiple classes. We also showcase several other advantages of branched diffusion models, including ease of extension to novel classes in a continual-learning setting, and a unique interpretability that offers insight into these generative models. Branched diffusion models represent an alternative paradigm to their traditional linear counterparts, and can have large impacts in how we use diffusion models for efficient generation, online learning, and scientific discovery.
translated by 谷歌翻译